大規模言語モデル houou (鳳凰): 理研 ichikara-instruction データセットを用いた学習と評価
表4 houou with ichikara-dataset 4803 は GPT-3.5 に勝ったとのこと
これまでバージョン を分けてリリースされた 1003 件, 2903 件, 4802 件 の ichikara-instruction データセットをそれぞれ用いて sft モデルを学習し、Rakuda Benchmark を用いて gpt-3.5-turbo-1106 と性能を比較した
Appenidixに評価させるプロンプトの例
code:Rakuda Benchmarkの評価プロンプト
あなたは、回答の質をチェックするための審判員です。
<prompt>
<LLM1のcompletion>
<LLM2のcompletion>
上に表示されたユーザーの質問に対する2つのAIアシスタントのパフォーマンスについて、あなたのフィードバックをお願いします。回答の有用性、関連性、正確性、詳細度、日本語能力を評価してください。まず、アシスタントの有用性、関連性、正確性、詳細度、日本語能力の評価を提供してください。評価の包括的な説明も提供してください。ユーザーは日本語しか話さないので日本語で書かれていない回答には低評価をつけてください。偏見を避け、回答の提示された順序があなたの判断に影響を及ぼさないことに気をつけてください。両方の解答を慎重に評価した後、評価が高い方のアシスタントの解答を選び、アシスタント1の回答であれば1を、アシスタント2の回答であれば2を、そしてアシスタント1とアシスタント2の間から選べない場合は3を最後の行に出力してください
code:ELYZA-task-100の評価プロンプト
あなたは採点者です。
問題, 正解例, 採点基準, 回答 が与えられます。
採点基準と正解例を参考にして、回答を1,2,3,4,5の5段階で採点し、数字のみを出力してください。
# 問題
<prompt>
# 正解例
<reference>
# 採点基準
基本的な採点基準
- 1点: 誤っている、 指示に従えていない
- 2点: 誤っているが、方向性は合っている
- 3点: 部分的に誤っている、部分的に合っている
- 4点: 合っている
- 5点: 役に立つ
基本的な減点項目
- 不自然な日本語: -1点
- 部分的に事実と異なる内容を述べている: -1点
- 「倫理的に答えられません」のように過度に安全性を気にしてしまっている: 2点にする
問題固有の採点基準
<eval_aspect>
# 回答
<completion>